অ্যাপাচি টিকার একটি অন্যতম গুরুত্বপূর্ণ বৈশিষ্ট্য হলো HTTP REST API এর মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করার সুবিধা। এটি Tika Server ব্যবহার করে করা হয়।
Tika Server সেটআপ
Tika Server চালানোর জন্য Tika-app JAR ফাইল প্রয়োজন হয়।
- Tika Server ডাউনলোড করুন
Apache Tika Server ডাউনলোড করতে Apache Tika's Official Page থেকে tika-server-x.x.jar সংগ্রহ করুন। Tika Server রান করুন
নিচের কমান্ড দিয়ে Tika Server চালু করুন:java -jar tika-server-x.x.jarএটি http://localhost:9998/ ঠিকানায় একটি REST API সার্ভার চালু করবে।
HTTP মাধ্যমে ফাইল আপলোড এবং এক্সট্র্যাকশন
Tika Server এর REST API ব্যবহার করে cURL অথবা অন্যান্য HTTP ক্লায়েন্টের মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়।
টেক্সট এক্সট্র্যাকশন
নিচের উদাহরণে cURL ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হয়েছে:
curl -T example.pdf http://localhost:9998/tika --header "Accept: text/plain"
-T example.pdf: আপলোড করা ফাইলের নাম।http://localhost:9998/tika: Tika Server এর API এন্ডপয়েন্ট।--header "Accept: text/plain": এক্সট্র্যাক্টেড আউটপুটকে টেক্সট ফরম্যাটে চাওয়া হয়েছে।
মেটাডেটা এক্সট্র্যাকশন
নিচের কমান্ডে শুধুমাত্র মেটাডেটা রিটার্ন করা হবে:
curl -T example.pdf http://localhost:9998/meta
POSTMAN ব্যবহার করে API কল
- POSTMAN ওপেন করুন এবং একটি POST Request তৈরি করুন।
- Request URL:
http://localhost:9998/tika - Headers:
- Key:
Accept - Value:
text/plain
- Key:
- Body:
- Type:
binary - ফাইলটি আপলোড করুন (উদাহরণ:
example.pdf)।
- Type:
- Send করুন এবং আউটপুট টেক্সট হিসেবে দেখুন।
HTTP REST API এন্ডপয়েন্ট সমূহ
| এন্ডপয়েন্ট | কাজের বর্ণনা | আউটপুট ফরম্যাট |
|---|---|---|
/tika | ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা | টেক্সট |
/meta | ফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করা | JSON |
/language | ফাইলের ভাষা সনাক্ত করা | প্লেইন টেক্সট |
/rmeta | মেটাডেটা এবং কন্টেন্ট একসাথে রিটার্ন করা | JSON |
একটি উদাহরণ: Python ব্যবহার করে HTTP রিকোয়েস্ট
Python এর মাধ্যমে Tika Server এ ফাইল আপলোড করে কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। নিচের উদাহরণে এটি দেখানো হয়েছে:
import requests
# Tika Server URL
tika_url = "http://localhost:9998/tika"
meta_url = "http://localhost:9998/meta"
# ফাইলের পাথ
file_path = "example.pdf"
# টেক্সট এক্সট্র্যাক্ট করা
with open(file_path, "rb") as file:
response = requests.put(tika_url, data=file, headers={"Accept": "text/plain"})
print("Extracted Text:")
print(response.text)
# মেটাডেটা এক্সট্র্যাক্ট করা
with open(file_path, "rb") as file:
response = requests.put(meta_url, data=file)
print("Extracted Metadata:")
print(response.json())
সারাংশ
HTTP REST API এর মাধ্যমে অ্যাপাচি টিকা ব্যবহার করে ফাইল আপলোডের মাধ্যমে সহজেই টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। এটি স্কেলেবল অ্যাপ্লিকেশন ডেভেলপমেন্টে বিশেষ সুবিধা দেয়। Tika Server সেটআপ করলে cURL, Postman বা Python এর মতো টুলস ব্যবহার করে সহজেই REST API এর মাধ্যমে কাজ করা সম্ভব।
Read more